導(dǎo)讀:原文如下:對(duì)百度,CTO劉建國(guó)的采訪過(guò)程就是一個(gè)擠牙膏的過(guò)程,他永遠(yuǎn)不會(huì)借題發(fā)揮,對(duì)采訪者的問(wèn)題,回復(fù)得簡(jiǎn)練而專(zhuān)注。這位與李彥宏一起創(chuàng)立百度的“技術(shù)新官僚”,對(duì)搜索引擎技術(shù)運(yùn)
發(fā)表日期:2020-07-08
文章編輯:興田科技
瀏覽次數(shù):9237
標(biāo)簽:
原文如下:
對(duì)百度,CTO劉建國(guó)的采訪過(guò)程就是一個(gè)擠牙膏的過(guò)程,他永遠(yuǎn)不會(huì)借題發(fā)揮,對(duì)采訪者的問(wèn)題,回復(fù)得簡(jiǎn)練而專(zhuān)注。這位與李彥宏一起創(chuàng)立百度的“技術(shù)新官僚”,對(duì)搜索引擎技術(shù)運(yùn)用的思考,在一定程度上體現(xiàn)了這個(gè)新上市公司的商業(yè)方向及這個(gè)團(tuán)隊(duì)的技術(shù)想象力。采訪中,劉建國(guó)不斷接到要求解封的“作弊網(wǎng)站”的電話,大多是熟人才會(huì)直接將電話打到他這里,或是打給李彥宏。采訪由此而展開(kāi)。
反作弊是我們的技術(shù)
《21世紀(jì)》:李彥宏選擇搜索引擎作為百度的主業(yè),當(dāng)時(shí)是怎么確定的?
劉建國(guó):2000年之前,中國(guó)有許多搜索引擎公司,Goyoyo是香港一個(gè)公司做的;科學(xué)院有一個(gè)網(wǎng)站,還有北大天網(wǎng)。當(dāng)時(shí)創(chuàng)立公司時(shí)搜索引擎已經(jīng)很多了。我們機(jī)會(huì)在哪里?在當(dāng)時(shí)我和李彥宏的通信中,他說(shuō)要做就做最好的。當(dāng)時(shí)已有的搜索引擎速度慢,索引小,用戶(hù)體驗(yàn)很差。我們都認(rèn)為做一個(gè)中文搜索引擎有很大前景,所以我就從北大出來(lái),跟李彥宏一起創(chuàng)業(yè)了。
《21世紀(jì)》:現(xiàn)在來(lái)看,當(dāng)時(shí)搜索的核心技術(shù)是什么?
劉建國(guó):分成好幾塊,一塊是網(wǎng)頁(yè)抓取,由蜘蛛程序選擇、抓取互聯(lián)網(wǎng)中的網(wǎng)頁(yè),還要持續(xù)不斷地更新網(wǎng)頁(yè),將過(guò)期的網(wǎng)頁(yè)剔除掉;二是超鏈分析和內(nèi)容分析;三是針對(duì)用戶(hù)的搜索服務(wù):如何處理海量數(shù)據(jù)和大規(guī)模的用戶(hù)訪問(wèn)?如何提供穩(wěn)定的服務(wù)?有很多技術(shù)問(wèn)題需要解決。
《21世紀(jì)》:你們是一幫人在做?
劉建國(guó):好多個(gè)組,重點(diǎn)是相關(guān)性的評(píng)價(jià)。哪些網(wǎng)頁(yè)是用戶(hù)想要的?后面就有好多技術(shù);比如超鏈分析;這里有李彥宏的專(zhuān)利。超鏈在Infoseek之前就有成熟的技術(shù),李彥宏在那兒工作時(shí)就研究得很細(xì),但我們沒(méi)有僅用這套方法,而是根據(jù)當(dāng)時(shí)搜索引擎全球的發(fā)展做了改進(jìn)。
《21世紀(jì)》:百度在相關(guān)性方面有什么特色?
劉建國(guó):有兩個(gè)基本方面:超鏈分析和內(nèi)容分析。我們這幫技術(shù)人員,包括李彥宏,根據(jù)搜索引擎當(dāng)時(shí)的技術(shù)發(fā)展,做出了一套百度自己的超鏈分析系統(tǒng)。另外還得分析網(wǎng)頁(yè)內(nèi)容,比如中文處理就很重要,要理解中文的語(yǔ)法和特定文字意義,因?yàn)橹形呐c英文還是不一樣的,只有判斷文字是什么意思,才能給用戶(hù)提供搜索結(jié)果。
《21世紀(jì)》:“欺騙搜索”是什么意思?你們有什么獨(dú)特的技術(shù)來(lái)對(duì)付它?
劉建國(guó):就是所謂的網(wǎng)絡(luò)優(yōu)化,比如SEO之類(lèi),鏈接一些域名,好象鏈接很多,但實(shí)際上是人為做出來(lái)的。還有一些鏈接,就是專(zhuān)門(mén)幫別人做鏈接,這也是超鏈分析。你不是鏈接分析嗎?專(zhuān)門(mén)針對(duì)你。還有一些網(wǎng)站,專(zhuān)門(mén)給別人做,相關(guān)度也高,我們必須發(fā)現(xiàn)哪些是LINKFORM,然后分析出來(lái)。
《21世紀(jì)》:這如何看得出來(lái)?有簡(jiǎn)單工具嗎?
劉建國(guó):我們已經(jīng)可以通過(guò)技術(shù)手段及時(shí)發(fā)現(xiàn)這種欺騙或者叫作弊。是否作弊,有一個(gè)很簡(jiǎn)單的標(biāo)準(zhǔn):用戶(hù)看到的內(nèi)容和搜索引擎看到的內(nèi)容是否一致?前一段搜索“芙蓉姐姐”,進(jìn)去之后很多是買(mǎi)手機(jī)的,買(mǎi)其他信息,這就是作弊。我們就分析,他們是通過(guò)什么方法來(lái)“欺騙搜索”。比如LINKFARM,我們靠技術(shù)發(fā)現(xiàn)出來(lái),它已經(jīng)“堆砌關(guān)鍵詞”了,我們看出它是作弊的,我就不要它。這就是為何后來(lái)反彈這么大,有了“反百度聯(lián)盟”的原因。有“反百度聯(lián)盟”成員說(shuō),你為什么屏蔽我?前一段搜狐網(wǎng)的一個(gè)峰會(huì),一個(gè)醫(yī)藥網(wǎng)的說(shuō)我們很好啊,你為什么把我給封了?它的“堆砌”是作弊的,如果我們把它放開(kāi),對(duì)用戶(hù)是一種欺騙。
《21世紀(jì)》:比如在百度搜“芙蓉姐姐”,你們把有些“芙蓉姐姐”鏈接給屏蔽了,那就不能給用戶(hù)提供更多的結(jié)果了?
劉建國(guó):是更準(zhǔn)確,比如用戶(hù)到這里來(lái)搜,得到的是真正的“芙蓉姐姐”而不是手機(jī)鈴聲。這樣做的目的是給用戶(hù)很好的用戶(hù)體驗(yàn)。
《21世紀(jì)》:在反作弊技術(shù)里,有什么可以明確識(shí)別作弊?
劉建國(guó):比如,來(lái)回互相鏈接、堆砌關(guān)鍵詞等。還有前景色和背景色完全一致,在HTML里面,用戶(hù)看不見(jiàn),可以騙搜索引擎,就這樣騙用戶(hù)。
《21世紀(jì)》:僅僅背景色也可以用來(lái)作弊?
劉建國(guó):背景是黑色的,搜索看見(jiàn)的僅僅是內(nèi)容,是看不到背景的。前景與后景一樣,機(jī)器看不著,人能看出來(lái),景色也是識(shí)別的因素。其中的文字就是有些網(wǎng)站想欺騙的東西。有很多方法作弊,層出不窮的。搜索與作弊網(wǎng)站是永遠(yuǎn)不會(huì)結(jié)束的戰(zhàn)爭(zhēng)。
《21世紀(jì)》:有沒(méi)有可以“招安”的作弊網(wǎng)站?
劉建國(guó):不會(huì)的。他們的利益很大,騙一點(diǎn)是一點(diǎn),不會(huì)到這里來(lái)做。
《21世紀(jì)》:有多少這樣的網(wǎng)站?
劉建國(guó):每天碰到成千這樣的網(wǎng)站。
《21世紀(jì)》:他們到哪里拉客戶(hù)?
劉建國(guó):不一定拉客戶(hù),他們可以自己做鈴聲、短信,SEO會(huì)拉企業(yè),給錢(qián),我給你排位。
另一個(gè)“敵人”是Google嗎?
《21世紀(jì)》:與Google的反作弊比,你們有什么優(yōu)勢(shì)?
劉建國(guó):說(shuō)Google的技術(shù)比我們好,我不認(rèn)同,他們主要是不夠集中。比如反作弊的,Google中文就做不過(guò)我們,這有技術(shù)問(wèn)題,還有人力,要知道作弊慣用的手法,而Google不知道。這個(gè)模式我們比Google發(fā)展得更快,我們更接近用戶(hù)。我們中文的理解做得比他們好,比如像分詞、切詞,中文是一個(gè)一個(gè)字,放一塊兒,那些字和詞是不一樣的。我做得比Google好。他們沒(méi)有專(zhuān)門(mén)研究中文。
《21世紀(jì)》:你們是用自己的技術(shù)?
劉建國(guó):是的。我們中文分詞,這個(gè)技術(shù)里面沒(méi)有英文,中文本身的處理我們已經(jīng)到位,還有語(yǔ)法的應(yīng)用,我們做得很好。語(yǔ)法是主謂賓,如何用,老外不理解。
《21世紀(jì)》:你們用以前的文字識(shí)別技術(shù)嗎?
劉建國(guó):對(duì)中文我們有一套獨(dú)特的做法,現(xiàn)在成熟的技術(shù)都不太適合我們。
《21世紀(jì)》:有沒(méi)有用哪個(gè)平臺(tái)?比如大的軟件?
劉建國(guó):這個(gè)軟件是我們自己做的。
《21世紀(jì)》:是應(yīng)用軟件?
劉建國(guó):不是一套。我們直接用自己的東西。比如說(shuō)詞典、分詞、詞匯。這不是釋義的詞典,可能有很多資源。比如我們用人民日?qǐng)?bào)的語(yǔ)料庫(kù),我們購(gòu)買(mǎi)這樣的資料。更多的平臺(tái)是我們自己的搜索引擎。我們有日志,總結(jié)新的詞匯。我們對(duì)10億計(jì)的網(wǎng)頁(yè)也能分析。這是Google中文做不到的。至少?zèng)]有聚焦。另外從中文用戶(hù)體驗(yàn)來(lái)說(shuō),我們也做得比他們好,比如用戶(hù)體驗(yàn)是什么、習(xí)慣是什么。比如相關(guān)搜索,在中文里面,用戶(hù)心里想的一個(gè)事情,比如“軟件”這個(gè)詞,用戶(hù)心里想的是軟件下載,但搜索的是“軟件”這個(gè)詞,他輸入“軟件”,與搜索不符。百度會(huì)提示得更加精細(xì)化,到底是軟件下載還是加密,全自動(dòng)服務(wù),這樣用戶(hù)會(huì)覺(jué)得很好。類(lèi)似的工作我們下了很多功夫。其他像拼音檢索,錯(cuò)別字糾正,我們也能正確提示。現(xiàn)在有些搜索正在抄我們。我認(rèn)為不能崇洋。
更多新聞
2023
小程序是一種基于互聯(lián)網(wǎng)的應(yīng)用程序,可以在移動(dòng)設(shè)備上使用,如智能手機(jī)和平板電腦。它們與原生應(yīng)用程序類(lèi)似,但不需要通過(guò)應(yīng)用商店進(jìn)行下載和安裝。開(kāi)發(fā)小程序可以為企業(yè)和個(gè)人提供一個(gè)全新的推廣和經(jīng)營(yíng)渠道。
View details
2023
小程序定制是指根據(jù)客戶(hù)需要,為其業(yè)務(wù)開(kāi)發(fā)一款獨(dú)特的小程序應(yīng)用。小程序定制可以適配不同的行業(yè)和需求,為企業(yè)和個(gè)人提供了一個(gè)強(qiáng)大的工具,幫助他們擴(kuò)大業(yè)務(wù)和增加品牌曝光度。
View details
2019
對(duì)于搜索引擎而言,其最終的目的是為了更好的滿足用戶(hù)需求,也就是我們常說(shuō)的“用戶(hù)體驗(yàn)”,想要做好用戶(hù)體驗(yàn)以及得以提升,需要從多方面進(jìn)行考慮和把握,其中提高內(nèi)容質(zhì)量度是非常重
View details
2023
網(wǎng)絡(luò)推廣可以幫助企業(yè)樹(shù)立良好的信譽(yù)和口碑。通過(guò)發(fā)布高質(zhì)量的內(nèi)容、與客戶(hù)互動(dòng)以及積極參與社交媒體等方式,企業(yè)可以建立信任感,增加客戶(hù)對(duì)其產(chǎn)品或服務(wù)的信心,從而贏得更多的業(yè)務(wù)和口碑傳播。
View details